AI中国网 https: //www.cnaiplus.com
作者 | Stephen Smith
译者 | Jarvan
编辑 | 金智塔
金智塔科技导读:一直存在着一个基本的误解,即更大的数据会产生更好的学习效果。然而,更大的数据并不一定有助于发现更多的信息。实际上,我们应该更关注数据质量、价值和多样性。数据的深度优于数据的数量。
更多优质内容请关注微信公众号“金智塔科技”
最近对大数据的炒作正在减弱。云,Hadoop以及其他类似的工具已经解决了大数据的处理问题。但是,仍有很多人花费大量资金建立更大的基础设施,来存放和管理这些庞大的数据库。这种对“大”的盲目追求,正在为基础设施和人力资源带来一些巨大的,不必要的成本。
现在,是时候将从“大数据”的讨论改为“深度数据”了。我们现在需要更加周到和明智来处理数据,而不是收集所有可能的数据来实现“大数据”。我们现在需要将一些数据落实,并寻求各种多样性和质量,而不是数量。而这将带来许多长期利益。
4种大数据神话
要理解从“大”到“深”的这种转变,让我们首先看一下我们对大数据的错误观念。
以下是一些大数据的重大神话:
- 可以并且应该捕获和存储所有数据。
- 更多的数据总是有助于构建更准确的预测模型。
- 存储更多数据的成本几乎为零。
- 计算更多数据的成本几乎为零。
实际上
- 来自物联网和网络流量的数据显然超过了我们的捕获能力。有些数据必须在获取时进行处理才能够保存和管理。我们需要根据价值对数据进行分类。
- 重复一千次相同数据的训练不会提高预测模型的准确性。
- 存储更多数据的成本不仅仅是亚马逊网络服务向您收取的每TB的美元成本。这也是查找和管理多个数据源的额外复杂性,以及员工移动和使用该数据的“虚拟权重”。这些成本通常高于存储和计算费用。
- 人工智能算法对计算资源的需求甚至可以快速超过弹性云基础架构。如果不是专业管理,计算资源将线性增长,而计算需求可以超线性增长,甚至指数级增长。
相信这些神话的问题在于,您将以在纸上或长期角度看起来不错的方式构建您的信息系统,但在即时的框架中会因为过于繁琐而无法使用。
大数据的4个问题
以下是在数据方面盲目相信“越多越好”的四个问题:
- 重复的数据没有帮助。在为AI构建机器学习模型时,培训示例的多样性至关重要。原因是模型试图确定概念边界。例如,如果您的模型试图通过使用年龄和职业来定义“退休工人”的概念,那么32岁的注册会计师这样的重复示例,对该模型没有什么好处,因为他们都没有退休。在65岁的概念边界获得样本,并了解退休如何随职业变化则更有帮助。
- 低质量的数据可能会伤害模型。如果新数据中存在错误,或者不精确,那么它只会使AI试图学习的两个概念之间的边界变得混乱。在这种情况下,更多数据无济于事,实际上甚至可能会降低现有模型的准确性。
- 大数据增加了时间成本。不同的学习算法下,在数TB的数据上构建模型可能比在数GB的数据上构建模型多花费一千倍、甚至一万倍的时间。
- 大数据易实现的模型。任何预测模型的最终目标都是创建一个可以为业务部署的高度准确的模型。有时使用来自数据湖深处凹陷的、更加模糊的数据,可能会提高准确性,但所使用的数据对于实际部署可能是不可靠的。那些不太准确但可以快速部署的模型往往会更好。
4件能做的改变
您可以采取一些措施来对抗大数据的“黑暗面”并转向深层数据思维:
- 了解准确性、执行权限。数据科学家常常以更建立准确的模型为目标。根据准确性和部署速度,以明确的ROI预期,再启动项目。
- 使用随机样本构建每个模型。如果你有大数据,那么没有理由不使用它。如果您具有良好的随机抽样功能,那么您可以从小样本中准确预测使用整个数据库构建的模型的准确性。先使用小样本构建模型,然后再使用整个数据库构建最终模型。
- 丢弃一些数据。如果你对来自物联网设备和其他来源的数据感到不知所措,可以随心所欲地抛弃一些数据。如果你不能购买足够的磁盘来存储多余的数据,它会破坏你在数据科学生产线后期工作的所有东西。
- 寻找更多数据源。人工智能最近的许多突破并非来自较大的数据集,而是来自机器学习算法利用以前无法获得的数据的能力。例如,在二十年前,现在普遍存在的大型文本,图像,视频和音频数据集并不存在。我们要不断寻找这些新的数据。
改变后得到的4个好处
如果您专注于深度数据而不仅仅是大数据,您将享受到许多好处。以下是一些关键问题:
- 一切都会更快。使用较小的数据,您的数据移动,实验,培训和模型评分都会快得多。
- 需要更少的存储和计算。关注深度数据意味着您将更加智能地使用更小的磁盘并在云中计算足迹。这直接转化为较低的基础设施成本。用您节省的资金聘请更多数据科学家和AI专家!
- 减少IT和数据科学家的压力。当数据科学家花费更多时间构建和测试模型而不是移动数据或等待长时间的训练来完成时,他们会更高兴。
- 可以解决更难的问题。构建AI模型并不是一种神奇的体验,只能由类似巫师的研究人员执行。它更多的是逻辑而不是魔术。它类似于一位艺术老师的故事,他告诉学生,他们一般的成绩将取决于他们制作的艺术作品的数量,另一半将根据他们最好作品的质量进行评分。毫不奇怪,学生创造了大量的作品,并且他们做出了很多高品质的产品。在我们的例子中,在相同资源约束下尝试的更多模型,可能意味着更好的模型。
大数据和支持它的技术突破,极大地促进了许多公司在决策过程中使用数据的动力。随着人工智能的兴起以及我们使这些强大资源饱和的能力,我们现在需要更加精确地根据我们的数据需求。现在需要建立一种理解深度数据而不仅仅是大数据的文化。
原文链接:
https://www.kdnuggets.com/2019/01/4-myths-big-data-deep-data.html
— 完 —
金智塔是由浙江大学人工智能研究所和浙江大学互联网金融研究院联合孵化,以打造金融大数据智能服务生态体系为愿景,拥有行业领先的金融大数据AI服务能力的高新技术企业。自主研发的“知他金融大数据智能服务平台”基于金融大数据,采用深度学习、联邦学习等技术实现对智能监管、大数据风控、智能营销、智能投顾的大数据建模服务支撑,通过一站式全流程服务为金融监管部门、各类金融机构与中介赋能。
AI中国网 https: //www.cnaiplus.com
本文网址: